昨天已經找好資料,今天要來抓資料了
今天先來抓統計區15歲以上人口五歲年齡組與性別與婚姻狀況統計的資料
先下載需要的packages
install.packages("rvest")
install.packages("XML")
呼叫packages
library(rvest)
library(XML)
因為一個網頁有很多個要下載的網址,所以要先從網頁上抓取要下載的檔案連結
data_url<-"https://data.moi.gov.tw/MoiOD/Data/DataDetail.aspx?oid=931F7F6C-9222-4191-8FCA-026DBD62ED0C"
content<-read_html(data_url)
text<- html_nodes(content,"td a")
target<-grep("DownloadFile",text)
xmlurl<-html_attr(text[target],"href")
結果會長
[1] "../System/DownloadFile.aspx?DATA=0A008294-CB1E-47AD-B255-D34313DDB778"
[2] "../System/DownloadFile.aspx?DATA=6879853C-009D-4D01-9340-90F0A20B65E8"
[3] "../System/DownloadFile.aspx?DATA=DD479CAE-1622-441F-B2D1-56914B2A60B7"
[4] "../System/DownloadFile.aspx?DATA=CD55A834-9AB9-4693-BBA2-4B3519E38B06"
[5] "../System/DownloadFile.aspx?DATA=61ABC3B2-A4AA-4C1D-8AE9-0F43C68298D5"
抓下來的xmlurl是.aspx
然後我就遇到難題啦~~~~我從來沒有處理過.aspx,網路上找不太到相關的資料
總之就是我還沒找到辦法處理它,所以今天進度delay了...
本來今天至少要下載到一個檔,只好明天再解決這個問題了~